Все още ли сте по-умни от AI? Има начин да следите
Кой е най-мощният модел на изкуствен интелект във всеки един миг? Проверете класациите.
Изградените от общността ранглисти на AI модели, оповестени обществено онлайн, набраха известност през последните месеци, като оферират взор в действително време към продължаващата борба сред огромните софтуерни компании за превъзходство на AI.
Броят на класациите се усили през последните месеци. Всеки наблюдава кои AI модели са най-напреднали въз основа на способността им да извършват избрани задания. AI моделът в основата си е набор от математически уравнения, обгърнати в код, предопределен за реализиране на избрана цел.
Някои по-нови участници, като Gemini на Гугъл (бивш Bard) и Mistral-Medium от основаната в Париж започваща компания Mistral AI, провокираха неспокойствие в общността на AI и се бориха за места покрай върха на класацията.
GPT-4 на OpenAI обаче продължава да господства. p>
„ Хората се интересуват от положението на техниката “, сподели Ying Sheng, основател на една такава ранглиста, Chatbot Arena, и докторант по компютърни науки в Станфордския университет. „ Мисля, че хората в действителност биха желали повече да видят, че класациите се трансформират. Това значи, че играта към момента е там и има още усъвършенствания, които би трябвало да се създадат. ”
Класирането се основава на проби, които дефинират на какво са способни AI моделите като цяло, както и кой модел може да е най-компетентен за съответна приложимост, като различаване на тирада. Тестовете, от време на време наричани също бенчмаркове, мерят продуктивността на AI по такива индикатори, като по какъв начин звучи човешко AI аудио или по какъв начин наподобява човешкият отговор на чатбот с AI.
Еволюцията на такива проби също е значима, защото AI продължава да напредва.
„ Сравнителните индикатори не са съвършени, само че все още това е един тип единственият метод, по който би трябвало да оценим системата, “ сподели Ванеса Парли, шеф на проучвания в Станфордския институт за изкуствен интелект, насочен към индивида.
Институтът изготвя Stanford's AI Index, годишен отчет, който наблюдава техническата продуктивност на моделите на AI посредством разнообразни индикатори във времето. Миналогодишният отчет преглежда 50 бенчмарка, само че включва единствено 20, сподели Парли, а тази година още веднъж ще отстрани някои по-стари бенчмаркове, с цел да открои по-нови, по-изчерпателни.
Кластите също оферират бърз взор тъкмо какъв брой модела се създават. Open LLM (модел на огромен език) Leaderboard, основан от Hugging Face, платформа за машинно образование с отворен код, е оценил и класирал повече от 4200 модела към началото на февруари, всички изпратени от членове на общността.
Моделите се наблюдават по седем основни бенчмарка, които имат за цел да оценят разнообразни качества, като схващане при четене и решение на математически проблеми. Оценките включват тестване на моделите по въпроси от началното учебно заведение по математика и естествени науки, тестване на техните рационални разсъждения и премерване на склонността им да повтарят дезинформация. Някои проби оферират отговори с голям брой благоприятни условия за избор, до момента в който други карат моделите да генерират свои лични отговори въз основа на подкани.
Посетителите могат да видят по какъв начин се показва всеки модел при съответни индикатори, както и какъв е междинният му резултат е като цяло. Нито един модел към момента не е постигнал съвършен резултат от 100 точки на който и да е бенчмарк. Smaug-72B, нов AI модел, основан от основаната в Сан Франциско започваща компания Abacus.AI, неотдавна стана първият, надхвърлил междинен резултат от 80.
Много от LLM към този момент са надминавайки базовото равнище на продуктивност на индивида при такива проби, което демонстрира това, което откривателите назовават „ засищане “. Томас Улф, съосновател и основен теоретичен шеф на Hugging Face, сподели, че това нормално се случва, когато моделите подобрят качествата си до степен, в която надвишават характерни сравнителни проби - сходно на това, когато възпитаник се реалокира от приблизително учебно заведение в гимназия - или когато моделите са запомнили по какъв начин да дават отговор на избрани тестови въпроси, идея, наречена „ пренастройване “.
Когато това се случи, моделите се оправят добре с по-рано изпълнени задания, само че се затрудняват в нови обстановки или при разновидности на старите задача.
„ Наситеността не значи, че ставаме „ по-добри от хората “ като цяло “, написа Wolf в имейл. „ Това значи, че при избрани бенчмаркове моделите към този момент са достигнали точка, в която актуалните бенчмаркове не правят оценка вярно опциите им, тъй че би трябвало да проектираме нови. “
Някои бенчмаркове са били в близост в продължение на години и става елементарно за разработчиците на нови LLMs да образоват своите модели на тези тестови набори, с цел да подсигуряват високи резултати при стартирането им. Chatbot Arena, ранглиста, учредена от междуучилищна отворена изследователска група, наречена Large Model Systems Organisation, има за цел да се бори с това, като употребява човешки принос за оценка на AI модели.
Парли сподели, че това също е един от методите откривателите се надяват да проявят креативност в метода, по който тестват езиковите модели: като ги правят оценка по-холистично, вместо да преглеждат един индикатор едновременно.
„ Особено тъй като виждаме по какъв начин по-традиционните бенчмаркове се насищат, въвеждането на човешка оценка ни разрешава да достигнем до избрани аспекти, които компютрите и по-базираните на код оценки не могат “, сподели тя. p>
Chatbot Arena разрешава на посетителите да задават всеки въпрос, който желаят, на два анонимни AI модела и по-късно да гласоподават кой chatbot дава по-добър отговор.
Неговата ранглиста се класира към 60 модела, основани на повече от 300 000 човешки гласа до момента. Трафикът към уеб страницата се е нараснал толкоз доста след стартирането на класацията преди по-малко от година, че Арената към този момент получава хиляди гласове дневно, съгласно нейните основатели, а платформата получава толкоз доста поръчки за прибавяне на нови модели, че не може да поеме. всички тях.
Създателят на Chatbot Arena Wei-Lin Chiang, докторант по компютърни науки в Калифорнийския университет-Бъркли, сподели, че екипът е провел изследвания, които демонстрират, че гласуването на тълпата дава резултати съвсем толкоз високо качество, като че ли са наели човешки специалисти да тестват чатботовете. Неизбежно ще има изключителни стойности, сподели той, само че екипът работи върху основаването на логаритми за разкриване на злонамерено държание от анонимни гласоподаватели.
Колкото и потребни да са сравнителните индикатори, откривателите също по този начин признават, че не са всички- обхващащ. Дори в случай че даден модел има положителни резултати при сравнителни индикатори за размишление, той към момента може да се показа по-слабо, когато става въпрос за съответни случаи на приложимост като анализиране на правни документи, написа Wolf, съоснователят на Hugging Face.
Ето за какво някои Любителите обичат да организират „ инспекции на вибрациите “ на AI модели, като следят по какъв начин се показват в разнообразни контексти, добави той, като по този метод правят оценка какъв брой сполучливо тези модели съумяват да се ангажират с потребителите, да запазят добра памет и да поддържат поредни персони.
Въпреки несъвършенствата на сравнителния разбор, откривателите споделят, че тестванията и класациите към момента предизвикват нововъведенията измежду разработчиците на изкуствен интелект, които би трябвало непрекъснато да покачват летвата, с цел да бъдат в крайник с най-новите оценки.
Анджела Янг